智能论文笔记

素描的Wasserstein距离（$ W^S $）是专门针对有限混合物分布的新概率距离。给定概率分布的集合$ \ MATHCAL {a} $定义的任何度量$ d $，$ w^s $定义为该指标的最判别凸扩展为space $ \ mathcal {s} = \ textrm {cons}（\ Mathcal {a}）$ \ Mathcal {a} $的元素混合物的$。我们的表示定理表明，以这种方式构建的空间$（\ MATHCAL {S}，w^s）$对$ \ MATHCAL {x} =（\ Mathcal {a}，d）$的wasserstein空间是同构的。该结果为Wasserstein距离建立了普遍性，表明它们的特征是它们具有有限混合物的判别能力。我们利用此表示定理提出了基于Kantorovich--Rubenstein二元性的估计方法，并证明了一般定理，该定理表明其估计误差可以由任何估计混合物重量和混合物组件的误差的总和来限制。这些数量的估计器。在$ p $二维离散$ k $ -mixtures的情况下，我们得出了估计$ w^s $的尖锐统计属性，我们显示的可以估计的速率与$ \ sqrt {k/n} $，达到对数因素。我们对这些边界进行了互补，以估计$ k $ - 点度量空间上的分布之间的瓦斯汀距离的风险，这与我们的上限与对数因素相匹配。该结果是用于估计离散分布之间的Wasserstein距离的第一个接近最小的下限。此外，我们构造了混合物权重的$ \ sqrt {n} $渐变正常的估计器，并得出了我们$ w^s $的估计器的$ \ sqrt {n} $分布限制。仿真研究和数据分析为新素描的瓦斯汀距离的适用性提供了强有力的支持。

translated by 谷歌翻译

Likelihood estimation of sparse topic distributions in topic models and its applications to Wasserstein document distance calculations

Xin Bing , Florentina Bunea , Seth Strimas-Mackey , Marten Wegkamp

分类： (统计)机器学习

2021-07-12

本文研究了主题模型中高维，离散，可能稀疏的混合模型的估计。数据包括在$ n $独立文档中观察到的$ p $单词的多项式计数。在主题模型中，$ p \ times n $预期的单词频率矩阵被认为被分解为$ p \ times k $ word-top-topic矩阵$ a $ a $和a $ k \ times n $ topic-document $ t $ t $ 。由于两个矩阵的列代表属于概率简单的条件概率，因此$ a $的列被视为$ p $ - 二维混合组件，这些混合组件是所有文档共有的，而$ t $的列被视为$ k $二维的混合物特定文档并允许稀疏的权重。主要的兴趣是提供鲜明的，有限的样本，$ \ ell_1 $ norm收敛速率，用于混合物重量$ t $的估计量，当$ a $是已知或未知时。对于已知的$ a $，我们建议MLE估计为$ t $。我们对MLE的非标准分析不仅建立了其$ \ ell_1 $收敛率，而且揭示了一个非凡的属性：MLE，没有额外的正则化，可能完全稀疏，并且包含$ t $的真实零模式。我们进一步表明，MLE既是最佳的最佳选择，又适应了一大批稀疏主题分布中未知的稀疏性。当$ a $未知时，我们通过优化与$ a $ a $的插件的可能性功能来估计$ t $。对于任何满足与$ a $ $ a $的详细条件的估计器$ \ hat {a} $，显示出$ t $的估计器可保留为MLE建立的属性。环境尺寸$ k $和$ p $可以随着样本量而增长。我们的应用是对文档生成分布之间1-Wasserstein距离的估计。我们建议，估计和分析两个概率文档表示之间的新1-Wasserstein距离。

translated by 谷歌翻译